AI资讯新闻榜单内容搜索- LLM

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

6278 点击 2025-10-12 14:59

又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限

Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看，他们将 LLM 视为其「思维」的改进操作符，实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼（Parallel-Distill-Refine, PDR），

来自主题: AI技术研报

8312 点击 2025-10-10 10:33

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

6067 点击 2025-10-09 11:16

EMNLP 2025 | CARE：无需外部工具，让大模型原生检索增强推理实现上下文高保真

近日，来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架，一个新颖的原生检索增强推理框架，教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。该框架现已全面开源，包括训练数据集、训练代码、模型 checkpoints 和评估代码，为社区提供一套完整的、可复现工作。

来自主题: AI技术研报

6965 点击 2025-10-07 22:10

Jina官方MCP三板斧：搜、读、筛

模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具，将他们串成一个完整的工作流，从而实现自主规划、推理与执行。上个月我们悄悄发布

来自主题: AI技术研报

8559 点击 2025-10-06 13:23

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

近年来，以强化学习为核心的训练方法显著提升了大语言模型（Large Language Models, LLMs）的推理能力与对齐性能，尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述，但其涵盖范围较为有限，未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报

6774 点击 2025-10-06 13:22

100 页 Agentic RL 综述！牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校，伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者，共同撰写并发布了长达百页的综述：《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报

7233 点击 2025-10-03 14:15